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Рассматривается проблема увеличения эффективности кэш-систем за счёт использования методов искус- 
ственного интеллекта. Приведена формализованная постановка задачи повышения эффективности систем 
кэширования с использованием теоретико-множественного математического аппарата. Рассмотрена техноло- 
гия применения системы нечёткого вывода для определения объекта-жертвы, реализующая вычисление 
кэш-рейтинга объектов, сохранённых в кэш-памяти. В качестве одной из базовых характеристик иеВ- 
ресурса, подаваемых на вход системы нечёткого вывода, впервые предложено использовать его простран- 
ственную локальность, определение которой основано на унифицированном идентификаторе игеБ-ресурса 
ЦЕТ. Определён способ выполнения адаптации нечёткой системы посредством синтеза лингвистической мо- 
Дели с использованием метода нечёткой кластеризации, а также приведены результаты экспериментального 
исследования разработанного алгоритма на имитационном стенде для трасс, полученных с использованием 
кэширующего прокси-сервера $4. 
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Введение. Растущая популярность мер-технологий и Интернета позволили пользователям всего 
мира обмениваться большим числом данных, среди которых: страницы с электронным контентом, 
фото и видео материалы, документы различных форматов и размеров. Ещё в 1999 году размер 
файла в пятьдесят мегабайт назывался исследователями меБ-систем и прокси-серверов «экстре- 
мально большим» («ежтетеу 1агде обес») [1], а сегодня ежедневно пользователи имеют воз- 
можность скачивать с различных серверов фильмы, размер каждого из которых составляет не- 
сколько гигабайт. Увеличение быстродействия \меБ-систем, несомненно, связано с увеличением 
производительности аппаратного обеспечения, ростом числа серверов в глобальной паутине, по- 
явлением новых \еБ-технологий и совершенствованием протоколов передачи данных. Однако 
человеческая природа постоянно требует всё более скоростных методов доступа к информации с 
меньшими временными задержками. В этом смысле использование кэширования в меБ-системах 
является одним из способов увеличения производительности, который, благодаря универсально- 
сти, может быть применён на различных уровнях функционирования меБ-систем [2, 3]. 

Одно из важнейших звеньев в реализации запроса конечного пользователя к оригиналь- 
ному меБ-серверу с данными — это кэширующий прокси-сервер, предназначенный для выполне- 
ния косвенных запросов клиентов к другим серверам или сетевым службам. Применение кэширо- 
вания на прокси-сервере позволяет [4]: 

» увеличить производительность серверов, функционирующих в рамках сетевой информа- 
ционной системы, так как кэш-система будет удовлетворять часть запросов и в результате сервер 
сможет обслуживать большее число запросов в единицу времени; 

® уменьшить среднее значение времени ожидания пользователем запрошенных данных; 

® уменьшить нагрузку на локальные и глобальные сети за счёт применения кэширования 
на локальных уровнях; 

» перераспределить нагрузку между различными центрами обработки информации единой 
системы за счёт перенаправления кэш-запросов на системы с меньшей загрузкой. 

Ключевым звеном системы кэширования является алгоритм кэширования, который на базе 
явно или неявно представленного кэш-рейтинга объектов системы определяет, какие объекты 
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должны быть вытеснены из кэш-памяти при её переполнении. Вытесняемый из кэш-памяти объ- 
ект, т. е. объект с минимальным рейтингом, называют жертвой. Определение жертвы — задача 
стратегии замещения. 

В последнее время наблюдается рост популярности применения известных технологий и 
методов искусственного интеллекта в различных прикладных задачах [5]. В работах [6, 7] пред- 
ставлено семейство нечётких алгоритмов замещения (англ. й/22у а/догййт гер/асетепф, разрабо- 
танных для применения в системах ммеб-кэширования. Несмотря на нашедшую отражение в этих 
работах эффективность нечётких стратегий, представленные алгоритмы имеют существенные не- 
достатки: 

® необходимость предварительного анализа потока запросов к кэш-системе для формиро- 
вания базы правил; 

® невозможность адаптации кэш-системы к изменениям законов распределения вероятно- 
стей доступа к объектам, происходящим в трассе. 

В данной работе определён метод разработки адаптивной системы кэширования на базе 
нечёткой стратегии замещения с использованием системы нечёткого вывода (СНВ), а также моду- 
ля адаптации на базе нечёткой кластеризации для синтеза лингвистической модели. 

Постановка задачи. Сформулируем математическую постановку решаемой научной задачи. Для 
этого введём в рассмотрение некоторые понятия. 

Пусть К — множество алгоритмов кэширования (англ. гер/асетепЕ а/довт): 


В ={(А,,А,...А,}, (1) 

где А; — представляет Ай алгоритм из множества А, определённый в соответствии с математиче- 

ской моделью абстрактной одноуровневой кэш-системы [8]; г — мощность множества А, т. е. 
число алгоритмов принадлежащих множеству (г = || ): 

Пусть ® (№, Ё,Т) — случайная функция, результатом которой является случайная трас- 


са и), соответствующая модели потока запросов [8] и составленная из Т идентификаторов г; объ- 
ектов системы (г Е М) ‚ полученных начиная с момента времени & 


р 
а (2) 
В общем случае & является элементарным исходом случайного процесса и принадлежит про- 
странству элементарных событий ®, (феЕ®, }, которое включено в 7-ую Декартову степень 
множества идентификаторов объектов системы: 

ОМ", (3) 

где ЛМ — множество идентификаторов объектов системы. 
Введём в рассмотрение отображение ф, определяющее случайное положительное рацио- 
нальное число р, которое представляет значение рейтинга кэш-попаданий (англ. Р/-гаво), полу- 


ченное для кэш-памяти объёма М, с использованием алгоритма кэширования А, и случайной трас- 
сы длинной 7, полученной для множества идентификаторов объектов системы /\/ начиная с мо- 
мента времени Ё 


$(А,М,®(М,Е,Т))=р, (4) 
ф: КхМх®, > В+, (5) 
где К — множество алгоритмов кэширования (1); ©, — множество случайных трасс длины Т; № — 


множество натуральных чисел; В+ — множество положительных рациональных чисел. 
В общем случае требуется реализовать такой алгоритм кэширования А, который в среднем 
обеспечивает наибольший рейтинг кэш-попаданий для заданного объёма кэш-памяти, множества 
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объектов системы и их идентификаторов, на всех трассах длинны Т, т. е. решить задачу стохасти- 
ческого программирования с моделью ожидаемого среднего значения (ехрещей уа/ие тоае/ — 
Е\ММ) [9]: 


пахЕ (Ф(А,М, в (М,Ё,Т)), (6) 
где Е ($) — операция нахождения среднего значения. 


Адаптивный нечёткий алгоритм кэширования. Вычисление кэш-рейтингов объектов в си- 
стеме кэширования на базе нечёткой логики основано на системе нечёткого вывода (СНВ), струк- 
Тура которой представлена ниже (рис. 1). 


Лингвистическая 
модель 


Блок Блок выработки ) Блок 
фаззификации решения дефаззификации 





Рис. 1. Структурная схема системы нечёткого вывода 


На схеме представлены следующие модули СНВ: 

» блок фаззификации (англ. й/22Исайоп), предназначенный для перевода параметров рас- 
чёта, представленных вектором чётких чисел х’, в нечёткие множества А; для последующего ис- 
пользования в блоке вывода; 

» блок дефаззификации, применяемый для перевода полученных нечётких множеств В, в 
вектор чётких значений выходных данных у; 


» лингвистическая модель или база правил, представляющая множество правил нечётких 
продукций, с посылкой (А) и следствием (В) [5]: 


А®: АВ", КТГ, (7) 

где г— число нечётких правил; К— номер правила; А‘ и В\— нечёткие множества такие, что: 
А" = А*х Ахх...х А" де=*. (8) 
ВЕВ кВ В, В Е, (9) 


где Хи У; — пространство входных и выходных переменных, при этом / = тп, 1=Ьт; 


» блок выработки решения (блок вывода), который формирует с использованием заданной 
базы правил на своём выходе одно или несколько нечётких множеств В, применив полученные на 
вход нечёткие множества А, при этом используется следующая последовательность шагов: 

1. Агрегирование условий, составляющих посылку правила; 

2. Активизация заключений, составляющих следствие правила; 

3. Аккумуляция следствия — получение нечёткого множества (или множеств) представ- 
ляющего следствие. 

Рассмотрим реализацию СНВ для использования в качестве модуля расчёта кэш-рейтингов 
объектов в алгоритме кэширования, применяемом для \меБ-прокси серверов. На вход СНВ пода- 
ются значения характеристик объекта системы, на выходе получаем кэш-рейтинг объекта. Ис- 
пользуются известные характеристики объекта в трассе: дистанция последнего доступа, популяр- 
ность за последнее время (частота доступов), размер объекта. Кроме того, в качестве входного 
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параметра впервые предлагается использовать характеристику пространственной локальности 
игеЬ-ресурса. 

В традиционном смысле пространственная локальность применяется при кэшировании 
программных инструкций в оперативной памяти, когда близкими являются инструкции располо- 
женные в одном блоке. Если общее информационное пространство \ме-среды рассматривать как 
единое множество адресов, то близкими с точки зрения пространственной локальности можно 
называть ресурсы, расположенные на одном мер-сервере (либо в одной локальной сети, либо на 
одном прокси-сервере и т. д., в зависимости от решаемой задачи). При этом мера близости двух 
\миеБ-ресурсов в самом простом случае может быть установлена с использованием унифицирован- 
ных идентификаторов этих ресурсов (англ. ИпЙИогт Кезоигсе 1аепЕПег, ИКТ): например, все ресур- 
сы, расположенные на одном доменном имени являются близкими. При этом далёкими по отно- 
шению к ним называются остальные ресурсы. Таким образом, мера близости двух меБ-ресурсов 
представляется функцией: 


0, и„ далек от и, , 


н(х,,х, ) = (10) 


Ги, близок ки,,, 


где х, и х — численные идентификаторы \меБ-ресурсов, как объектов системы; и, и @ = ИВТ 


Хх! 
\меБ-ресурсов с идентификаторами х; и №. 

Суть описываемой ситуации заключается в том, что обращение пользователя к некоторо- 
му информационному контенту меБ-сайта, как правило, влечёт за собой несколько параллельных 
асинхронных запросов к \еб-серверу на предоставление такой информации, как изображения, 
]5-скрипты, таблицы стилей с$ и т. д. Таким образом, запрос данных с сервера подразумевает 
выполнение множественных запросов на получение объектов из множества близких ресурсов, а 
значит, кэш-рейтинги этих ресурсов должны быть повышены. 

Для применения данного свойства в реальной системе кэширования требуется его харак- 
теризовать численным образом. Для этого введём в рассмотрение кортеж с 1ВУ-организацией Ди, 
составленный из адресов доменов, к которым принадлежат ресурсы, запрашиваемые в трассе: 

2 = (а, ,4,..а,), (11) 


где 4; — доменное имя; /— позиция имени в кортеже. 

Позиция имени в кортеже характеризует новизну обращений к ресурсам данного домена: 
на первой позиции расположено имя, к ресурсу которого было последнее обращение, т. е. пози- 
ция в кортеже Д‚„ представляет дистанцию последнего обращения к ресурсам соответствующего 
доменного имени. 

Таким образом, на вход блока фаззификации поступают следующие значения: 

® дистанция последнего обращения к объекту в трассе (ОР — оБесЕ а/апсе), характери- 
зующая свойство новизны — число позиций в трассе (либо число секунд) до предыдущего обра- 
щения к объекту, а если обращение к объекту первое в трассе, то ОБ = -—1; 

® популярность объекта (ОР — оБлесЁ роршайу) — число обращений к объекту; 

® размер объекта (0$ — оБесЕ хе) — размер объекта в заданных единицах информации 
(например, в байтах); 

» характеристику пространственной локальности объекта (5[ — $райа/ |осаШу), которая 
представлена позицией домена \меБ-ресурса в кортеже Ди, а если домен в кортеже ещё не пред- 
ставлен, то 5Ё = -1. 

Для каждого представленного значения выполняется операция фаззификации типа «син- 
глтон» [5]. Полученные нечёткие множества подаются в блок вывода, на выходе которого реги- 
стрируется одно нечёткое множество, характеризующее значимость объекта для кэш-системы. 
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После дефаззификации данного нечёткого множества по методу центра тяжести, на выходе СНВ 
получаем кэш-рейтинг объекта. 

Ключевым звеном описанной нечёткой системы, определяющим её функционирование, 
является лингвистическая модель, представленная множеством нечётких правил, которые в опи- 
санных ранее кэш-системах на базе СНВ определялись аналитически на базе известных участков 
трасс [6, 7]. Разработанный алгоритм реализует метод синтеза нечётких правил по результатам 
выполнения нечёткой кластеризации за счёт изменения функций принадлежности нечётких мно- 
жеств, входящих в посылку правила [10]. Таким образом, представленный алгоритм кэширования 
на базе нечёткой логики адаптируется к изменяющимся характеристикам трассы. 

Для получения входных данных процедуры кластеризации подаваемая на вход трасса 
объектов разбивается на участки. На каждом участке производится вычисление следующих ха- 
рактеристик объектов: 

® оценка математического ожидания дистанции объекта (ОД) на участке трассы; 

® число обращений к объекту (ОР) на участке; 

® размер объекта (05); 

® оценка математического ожидания дистанции обращения к ресурсам домена (51) на 
участке. 

При этом учитываются только те объекты, число обращений к которым на участке больше 
некоторого заданного порогового значения Ти (Тиггу > 1). Полученные данные объединяются в 
векторы, подаваемые в качестве входных в процедуру кластеризации: 


р (12) 


где х, — оценка математического ожидания дистанции объекта на участке Ё х› — число обраще- 
ний к объекту на участке & ж — размер объекта; х+ — оценка математического ожидания ди- 
станции обращения к ресурсам домена на участке & хь — число обращений на участке Ё+ 1. 

Для получения кластеров из множества полученных векторов используется алгоритм не- 
чётких с-средних (англ. Риггу С-Меапз) [5]. При этом число кластеров устанавливается соответ- 
ствующим числу желаемых правил нечётких продукций, синтез которых осуществляется по сле- 
дующим правилам: 

е хи, №, №, х — представляют посылку правила, х — следствие правила; 

В Качестве заключения правила выбирается центр соответствующего кластера; 

® функции принадлежности нечётких множеств, входящих в посылку и следствие нечётко- 
го правила, продуцируются путём проецирования степеней принадлежности соответствующего 
кластера на входные переменные [10]. 

Полученные таким образом нечёткие правила применяются в качестве базы СНВ. Число 

участков трассы, после которых выполняется адаптация, и размер участка являются параметрами 
представленного нечёткого алгоритма. 
Результаты имитационного моделирования. Исследования проводились с применением 
имитационного моделирования на разработанном программном стенде [11]. Для проведения ис- 
следований был выбран метод событийно-регулируемого управления моделированием 
(англ. {гасе-Чйуеп эитМаНоп), а в качестве входных данных подавались трассы с прокси-сервера 
Донского государственного технического университета, использующего в качестве программного 
обеспечения популярный кэширующий сервер 5ди@. Трассы получены на основе журналов рабо- 
ты бац в период: март-май, июль-август 2012 года. При этом для проведения экспериментов все 
трассы были приведены к одинаковому размеру и в них оставлены только те обращения к меВ- 
ресурсам, которые могут кэшироваться прокси-сервером. Усреднённые статистические характери- 
стики используемых реальных трасс представлены в таблице 1. 
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Таблица 1 
Усреднённые параметры реальных трасс, используемых в исследованиях 
Параметр Значение 
длина трассы 1.000.000 
% числа объектов, запрошенных единожды 73,03 % =3% 
% трафика объектов, запрошенных единожды 65,70 % +3% 
средний размер объекта 18 Кб 
максимальный размер объекта 68679 Кб 
минимальный размер объекта 1 Кб 
общий размер трафика 10,72 Гб 














При проведении экспериментов размер кэш-памяти варьировался в пределах от 10 Мб до 
300 Мб. Результаты проведённых экспериментов приведены ниже (рис. 2, табл. 2). 
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Рис. 2. Динамика изменения эффективности стратегий замещения на реальных трассах для объектов, запрошенных более 
одного раза 


Таблица 2 
Сравнение стратегий замещения на реальных трассах для объектов запрошенных 
более одного раза 





ГРУ ЕВУ Зе ЕРУОА ЕВУ-тм | 605 Ц АВС АРСК 





НК 60,350 | 60,347 | 59,201 | 58,209 62,288 63,492 | 63,355 | 58,236 | 68,031 








ВНК | 25,139 | 26,363 | 26,845 | 22,358 25,213 24,101 | 25,213 | 24,842 | 27,809 
































Выводы. Разработанная специально для прокси-серверов адаптивная нечёткая стратегия заме- 
щения АРСК. на имитационном стенде показала превышение значений рейтинга кэш-попаданий, 
как основного критерия эффективности алгоритмов кэширования, известных стратегий замеще- 
ния в среднем на 8 % и с вероятностью 0,95 не менее, чем на 5 %. 
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АОБАРТТУЕ РУ22У САСНТМС АЕСОВТТНМ РОВ РВОХУ 5ЕКУЕК$ 


А. Т. СВУКо\У 
(Роп Зае Тесптка! Упмег$Ку) 


Тре роет о! тсгеатд {те ейтсепсу оЁ саспе зу$етх изтд агийса!/ теШдепсе {есптдиес /5 соп!аегеа. Тпе 
Югта!геа зейетепЕ оЁ га/5тд пе саспе ейесвуепе5$ оп {те Ба$/5 оЁ пе е!-теогейс тайетайса! {00/5 [5 @Е- 
$СПБЕд. ТПе Пи22у од/с аррИсайоп Еесппооду юг аееттттд йе исйт иисв итретепЕ$ {Пе са/сШайоп о! сасве 
уа/иез ог обес т саспе тетогу 15 соп/СЕегеа. 1 15 ВизЁ опегеа №0 изе рава! ГосаШу о! {не иеБ-гезоигсе аз опе 
ОГ №5 Бас спагасей$Ис$ аррута № {те триЕ оЁ те ®/т2у ос зубет. Тпе аейт#оп оЕЁ #5 спагасей$Нс 15 
Базе оп пе ипогт гезоигсе аепийег ИКГ. ТПе 1есптдие Гог {Те адарёайоп оЁ 1и22у зубетз ЕгоидН {те 5уп- 
{Пез5 оР{те Ипди5Вс тоде! изтд {пе теёод о? #122у сЧи$енпд 1/5 ЧеЁтед. ВезЕ$з, те ехрептегиа! $иау о {те 
а/допёнйт аеуе/ореа оп {те тиайоп ${апа Юг {гасез оматеа ЁЕпгоидй ёе ргоху сасре $4 15 гезийед. 
Кеуигогаб: саспе учет, Ки22у [о9/с, В/т2у Чичеппд, адарёуе сасйтд зу$ет. 
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